在这项工作中,我们专注于改善图像捕获生成系统生成的字幕。我们提出了一种新型的重新排列方法,该方法利用视觉声音措施来确定最大程度地捕获图像中视觉信息的理想标题。我们的重新级别使用了信念修订框架(Blok等,2003),通过明确利用所描绘的标题和视觉上下文之间的语义相关性来校准顶级字幕的原始可能性。我们的实验证明了我们方法的实用性,我们观察到我们的重新级别可以增强典型的图像捕获系统的性能,而无需进行任何额外的培训或微调。
translated by 谷歌翻译
对于沉浸式应用,匹配视觉同行的双耳发电是对虚拟环境中的人们带来有意义的体验至关重要。最近的作品已经显示了使用神经网络来使用2D视觉信息作为指导来使用Mono音频来合成双耳音频。通过使用3D视觉信息引导音频并在波形域中操作来扩展该方法可以允许虚拟音频场景的更准确的Auratization。在本文中,我们提供了一个多模态深入学习模型的点,它使用3D点云场景从单声道音频生成双耳版本。具体地,Point2Sound由具有3D稀疏卷积的视觉网络组成,其从点云场景中提取视觉特征来调节操作在波形域中的音频网络,以合成双耳网络。实验结果表明,3D视觉信息可以成功引导双模深度学习模型的双耳合成任务。此外,我们还调查了不同的丢失函数和3D点云属性,显示直接预测完整的双耳信号并使用RGB深度特征增加了我们所提出的模型的性能。
translated by 谷歌翻译
联合学习(FL)是标准集中学习范式的最吸引人的替代方案之一,允许异质的设备集训练机器学习模型而无需共享其原始数据。但是,FL需要中央服务器来协调学习过程,从而引入潜在的可扩展性和安全性问题。在文献中,已经提出了诸如八卦联合学习(GFL)和支持区块链的联合学习(BFL)之类的无服务器的方法来减轻这些问题。在这项工作中,我们提出了这三种技术的完整概述,该技术根据整体性能指标进行比较,包括模型准确性,时间复杂性,交流开销,收敛时间和能源消耗。广泛的模拟活动允许进行定量分析。特别是,GFL能够节省18%的训练时间,68%的能源和51%的数据相对于CFL解决方案,但无法达到CFL的准确性水平。另一方面,BFL代表了一个可行的解决方案,用于以更高级别的安全性实施分散的学习,以额外的能源使用和数据共享为代价。最后,我们确定了两个分散的联合学习实施的开放问题,并就该新研究领域的潜在扩展和可能的研究方向提供见解。
translated by 谷歌翻译
从单个图像中恢复人头的几何形状,同时对材料和照明进行分解是一个严重不良的问题,需要事先解决。基于3D形态模型(3DMM)及其与可区分渲染器的组合的方法已显示出令人鼓舞的结果。但是,3DMM的表现力受到限制,它们通常会产生过度平滑和身份敏捷的3D形状,仅限于面部区域。最近,使用多层感知器参数化几何形状的神经场获得了高度准确的全头部重建。这些表示形式的多功能性也已被证明可有效解开几何形状,材料和照明。但是,这些方法需要几十个输入图像。在本文中,我们介绍了Sira,该方法从单个图像中,从一个图像中重建了具有高保真度几何形状和分解的灯光和表面材料的人头头像。我们的关键成分是基于神经场的两个数据驱动的统计模型,这些模型可以解决单视3D表面重建和外观分解的歧义。实验表明,Sira获得了最新的状态导致3D头重建,同时它成功地解开了全局照明以及弥漫性和镜面反照率。此外,我们的重建适合基于物理的外观编辑和头部模型重新构建。
translated by 谷歌翻译
最近在自动手语理解中的具有挑战性的任务(例如手语识别,翻译和生产)方面取得了重大进展。但是,这些作品集中在相对较少的样本,简短录音以及有限的词汇和签名空间的数据集上。在这项工作中,我们介绍了手语主题检测的新颖任务。我们基于跨越多个语义域的大规模视频数据集的2sign的实验。我们为主题检测的任务提供了强大的基础,并在手语领域常用的不同视觉特征之间进行了比较。
translated by 谷歌翻译
石油场和地震成像的储层模拟被称为石油和天然气(O&G)行业中高性能计算(HPC)最苛刻的工作量。模拟器数值参数的优化起着至关重要的作用,因为它可以节省大量的计算工作。最先进的优化技术基于运行大量模拟,特定于该目的,以找到良好的参数候选者。但是,在时间和计算资源方面,使用这种方法的成本高昂。这项工作提出了金枪鱼,这是一种新方法,可增强使用性能模型的储层流仿真的最佳数值参数的搜索。在O&G行业中,通常使用不同工作流程中的模型合奏来减少与预测O&G生产相关的不确定性。我们利用此类工作流程中这些合奏的运行来从每个模拟中提取信息,并在其后续运行中优化数值参数。为了验证该方法,我们在历史匹配(HM)过程中实现了它,该过程使用Kalman滤波器算法来调整储层模型的集合以匹配实际字段中观察到的数据。我们从许多具有不同数值配置的模拟中挖掘了过去的执行日志,并根据数据提取的功能构建机器学习模型。这些功能包括储层模型本身的属性,例如活动单元的数量,即模拟行为的统计数据,例如线性求解器的迭代次数。采样技术用于查询甲骨文以找到可以减少经过的时间的数值参数,而不会显着影响结果的质量。我们的实验表明,预测可以平均将HM工作流程运行时提高31%。
translated by 谷歌翻译
图像注册是一个研究领域,必须将图像进行比较和对齐,并与观点或摄像机特征独立进行对齐。在某些应用中(例如法医生物识别技术,卫星摄影或室外场景标识)经典图像注册系统由于比较的一个图像而失败,这代表了另一个图像的一小部分。例如,在法医掌上识别的情况下,通常只能找到一小部分棕榈印刷,但是在数据库中,整个棕榈印刷已被注册。经典图像注册方法行为不佳的主要原因是两个图像的显着点的量之间的差距,这与被视为离群值的点数有关。通常,当代表场景的微小部分的图像急剧旋转时,找到良好匹配的困难会增加。同样,就掌刻法医而言,很难先确定发现的微型棕榈印刷图像的方向。我们提出了一种旋转不变的注册方法,该方法明确考虑要匹配的图像是较大图像的一小部分。在两种不同的情况下,我们在实验上验证了我们的方法。棕榈印刷识别和室外图像注册。
translated by 谷歌翻译
依赖图被证明是一个非常成功的模型,可以代表人类语言句子的句法结构。在这些图中,被广泛接受为树,顶点是单词,而弧线连接了句法依赖的单词。这些依赖关系的趋势已使用随机基线来证明边缘或其变体的长度之和。无处不在的基线是投影订单中的预期总和(其中边缘不交叉,句子的词根不涵盖任何边缘)。结果表明,可以以$ o(n)$时间计算所述期望值。在本文中,我们重点介绍平面顺序(可以涵盖词根单词),并提出两个主要结果。首先,我们显示了平面布置中的预期总和与投影安排中的预期总和之间的关系。其次,我们还得出了$ o(n)$ - 时间算法来计算边缘长度总和的预期值。这两个结果源于本文的另一项贡献,即平面的表征,鉴于句子,它产生了平面排列的数量或有效的算法,以生成单词的均匀随机平面排列。我们的研究铺平了为使用随机平面线性化作为随机基线的随机平面线性化而复制过去的研究研究的道路。
translated by 谷歌翻译
本文解决了人类运动预测的问题,包括预测未来的身体从历史上观察到的序列构成的构成。尽管其性能,但当前的最新方法依赖于任意复杂性的深度学习体系结构,例如经常性神经网络〜(RNN),变压器或图形卷积网络〜(GCN),通常需要多个培训阶段,等等。超过300万参数。在本文中,我们表明,这些方法的性能可以通过轻巧且纯粹的MLP体系结构超越,并且与几种标准实践(例如用离散的余弦变换代表身体姿势(DCT))相结合时,只有0.14亿个参数,预测关节的残留位移和优化速度作为辅助损失。对人类360万的详尽评估,Amass和3DPW数据集表明,我们的方法(我们将其配置为Simlpe)始终优于所有其他方法。我们希望我们的简单方法可以为社区提供强大的基准,并允许重新考虑人类运动预测的问题,以及当前的基准是否确实需要复杂的建筑设计。我们的代码可在\ url {https://github.com/dulucas/simlpe}上获得。
translated by 谷歌翻译
最大线性布置问题(MAXLA)包括从图$ g $的$ n $顶点查找映射$ \ pi $到最大化$ d _ {\ pi}(g)= \ sum_ {uv \ {uv \ {uv \ \ \在e(g)} | \ pi(u) - \ pi(v)| $。在这种情况下,顶点被认为位于水平线上,边缘在线上上方的半圆时绘制。存在限制安排的MaxLA的变体。在平面变体中,边缘交叉被禁止。在塑料树排列的投射变体中,是平面,根不能被任何边缘覆盖。在这里,我们提出$ o(n)$ - 时间和$ o(n)$ - 空间算法,这些算法可以解决树木的平面和射击maxla。我们还证明了最大投影和平面布置的几个属性。
translated by 谷歌翻译